{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "\n",
    "# 数据挖掘的起源\n",
    "为迎接上述这些挑战，来自不同学科的研究者汇集到一起，开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作都是建立在研究者先前使用的方法学和算法之上，而在数据挖掘领域达到高潮。\n",
    "##数据挖掘任务\n",
    "通常，数据挖掘任务分为下面两大类。\n",
    "###预测任务。这些任务的目标是根据其他属性的值，预测特定属性的值。被预测的属性一般称目标变量或因变量，而用来做预测的属性称说明变量或自变量。\n",
    "###描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上，描述性数据挖掘任务通常是探查性的，并且常常需要后处理技术验证和解释结果。\n",
    "###关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、理解地球气候系统不同元素之间的联系等。\n",
    "###聚类分析旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。\n",
    "数据\n",
    "数据类型数据集的不同表现在多方面。例如，用来描述数据对象的属性可以具有不同的类型——定量的或定性的，并且数据集可能具有特定的性质，例如，某些数据集包含时间序列或彼此之间具有明显联系的对象。毫不奇怪，数据的类型决定我们应使用何种工具和技术来分析数据。此外，数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。\n",
    "数据的质量数据通常远非完美。尽管大部分数据挖掘技术可以忍受某种程度的数据不完美，但是注重理解和提高数据质量将改进分析结果的质量。通常必须解决的数据质量问题包括存在噪声和离群点，数据遗漏、不一致或重复，数据有偏差或者不能代表它应该描述的现象或总体情况。\n",
    "使数据适合挖掘的预处理步骤通常，原始数据必须加以处理才能适合于分析。处理一方面是要提高数据的质量，另一方面要让数据更好地适应特定的数据挖掘技术或工具。例如，可能需要将连续值属性(如长度)转换成具有离散的分类值的属性(如短、中、长)，以便应用特定的技术。又如，数据集属性的数目常常需要减少，因为属性较少时许多技术用起来更加有效。\n",
    "根据数据联系分析数据数据分析的一种方法是找出数据对象之间的联系，之后使用这些联系而不是数据对象本身来进行其余的分析。例如，我们可以计算对象之间的相似度或距离，然后根据这种相似度或距离进行分析——聚类、分类或异常检测。诸如此类的相似性或距离度量很多，要根据数据的类型和特定的应用做出正确的选择。\n",
    "##数据类型\n",
    "数据集可以看作数据对象的集合。数据对象有时也叫做记录、点、向量、模式、事件案例、样本、观测或实体。数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)属性描述。属性有时也叫做变量、特性、字段、特征或维。\n",
    "##属性与度量。\n",
    "###什么是属性\n",
    "###属性是对象的性质或特性，它因对象而异，或随时间而变化。例如，眼球颜色因人而异，而物体的温度随时间而变。注意：眼球颜色是一种符号属性，具有少量可能的值属性并非数字或符号。然而，为了讨论和精细地分析对象的特性，我们为它们赋予了数字或符号。为了用一种明确定义的方式做到这一点，我们需要测量标度。\n",
    "###测量标度是将数值或符号值与对象的属性相关联的规则(函数)。\n",
    "形式上，测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。对象属性的“物理值”都被映射到数值或符号值。有了这些背景，现在我们可以讨论属性类型，这对于确定特定的数据分析技术是否适用于某种具体的属性是一个重要的概念。\n",
    "###属性类型\n",
    "属性的性质不必与用来度量它的值的性质相同。换句话说，用来代表属性的值可能具有不同于属性本身的性质。\n",
    "###属性的不同类型\n",
    "一种指定属性类型的有用(和简单)的办法是，确定对应于属性基本性质的数值的性质。例如，长度的属性可以有数值的许多性质。按照长度比较对象，确定对象的排序，以及谈论长度的差和比例都是有意义的。数值的如下性质(操作)常常用来描述属性。\n",
    "(1)相异性 =和。\n",
    "(2)序 <、<、>和>。\n",
    "(3)加法 +和一。\n",
    "(4)乘法 *和/。\n",
    "给定这些性质，我们可以定义四种属性类型：标称、序数、区间和比率。表2-2给出这些类型的定义，以及每种类型上有哪些合法的统计操作等信息。每种属性类型拥有其上方属性类型上的所有性质和操作。因此，对于标称、序数和区间属性合法的任何性质或操作，对于比率属性也合法。换句话说，属性类型的定义是累积的。当然，对于某种属性类型合适的操作，对其上方的属性类型就不一定合适。\n",
    "##数据类型 17\n",
    "表2-2不同的属性类型\n",
    "属性类型 描 述 例 子 操 作\n",
    "标称 标称属性的值仅仅只是不 邮政编码、雇员 ID 众数、焰、列联相关、\n",
    "同的名字，即标称值只提供足 号、眼球颜色、性别 ／检验\n",
    "分类的\n",
    "（定性的） 序数 够的信息以区分对象\n",
    "(=，#)\n",
    "序数属性的值提供足够的 矿石硬度、（好，较好， 中值、百分位、秩相关、\n",
    "信息确定对象的序 最好）、成绩、街道号码 游程检验、符号检验\n",
    "(<, >)\n",
    "区间 对于区间属性，值之间的差 日历日期、摄氏或华 均值、标准差、皮尔逊\n",
    "是有意义的，即存在测量单位 氏温度 相关、1和F检验\n",
    "数值的 (+，-)\n",
    "（定量的） 比率 对于比率变量，差和比率都 绝对温度、货币量、 几何平均、调和平均、\n",
    "是有意义的 计数、年龄、质量、长百分比变差\n",
    "(*，/) 度、电流\n",
    "标称和序数属性统称分类的或定性的属性。顾名思义，定性属性不具有数的大部分性质。即便使用数(即整数)表示，也应当像对待符号一样对待它们。其余两种类型的属性，即区间和比率属性，统称定量的或数值的属性。定量属性用数表示，并且具有数的大部分性质。注意：定量属性可以是整数值或连续值。\n",
    "属性的类型也可以用不改变属性意义的变换来描述。实际上，心理学家最先用允许的变换所示的属性类型。例如，如果长度分别用米和英尺度量，其属性的意义并未改变。\n",
    "对特定的属性类型有意义的统计操作是这样一些操作，当使用保持属性意义的变换对属性进行变换时，它们产生的结果相同。例如，用米和英尺为单位进行度量时，同一组对象的平均长度数值是不同的，但是两个平均值都代表相同的长度。四种属性类型的允许的(保持意义的)变换。\n",
    "###用值的个数描述属性\n",
    "区分属性的一种独立方法是根据属性可能取值的个数来判断"
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
